PI 6250 – Ökonometrie I
Department für Volkswirtschaftslehre, WU Wien
Basierend auf einem Foliensatz von Simon Heß
6. März 2025
Die Aussagen auf der vorherigen Folie betreffen alle die bedingte Erwartung einer abhängigen Variable \(y\), gegeben eine erklärende Variable \(x\).
Bedingte Erwartungen sind ein wichtiges Maß, das eine abhängige Variable \(y\) mit einer erklärenden Variable \(x\) in Relation setzt, zum Beispiel so:
\[ \mathrm{E}\left(\textcolor{var(--primary-color)}{y}\mid\textcolor{var(--secondary-color)}{x}\right) = 0.4 + 0.5\textcolor{var(--secondary-color)}{x} \]
Auf diese Weise können wir Variation in der abhängigen Variable \(y\) in zwei Komponenten unterteilen:
Wenn wir bestimmte Maßnahmen evaluieren, sind wir oft daran interessiert, Unterschiede zwischen verschiedenen Gruppen zu verstehen.
Zwei Beispiele:
In beiden Fällen untersuchen wir den durchschnittlichen Behandlungseffekt (engl. average treatment effect, ATE): der durchschnittliche Effekt einer „Behandlung“ relativ zu keiner „Behandlung“.
Wir können auch daran interessiert sein, ein Ergebnis für eine bestimmte Ausgangssituation vorherzusagen.
Angenommen, wir kennen die Verteilung von Schulklassengröße und Prüfungsergebnissen. Für einen neuen Bezirk kannen wir nur die Klassengröße. Was ist die beste Vorhersage für die Prüfungsergebnisse im neuen Bezirk?
Wenn wir eine quadratische Verlustfunktion minimieren, wird unsere beste Vorhersage der bedingte Mittelwert sein.
Wir wollen jetzt die Bedingte Erwartungsfunktion einer bestimmten Zufallsvariable \(y\) in Abhängigkeit von einer anderen Zufallsvariable \(x\) modellieren.
Der einfachste Weg, das zu tun: wir unterstellen eine lineare Funktion.
\[ \mathrm{E}(\textcolor{var(--primary-color)}{y_i}\mid\textcolor{var(--secondary-color)}{x_i}) = \beta_0 + \beta_1 \textcolor{var(--secondary-color)}{x_i}, \]
wobei
\[ \mathrm{E}(\textcolor{var(--primary-color)}{y_i}\mid\textcolor{var(--secondary-color)}{x_i}) = \beta_0 + \beta_1 \textcolor{var(--secondary-color)}{x_i}, \]
Diese Funktion gibt uns eine Information über den Erwartungswert von \(y_i\) für einen bestimmten Wert \(x_i\), und nur das.
Angenommen, die bedingte Erwartungsfunktion für Prüfungsergebnisse gegeben eine bestimmte Klassengröße ist
\[ \mathrm{E}(\textcolor{var(--primary-color)}{\text{Prüfungsergebnisse}_i}\mid\textcolor{var(--secondary-color)}{\text{Klassengröße}_i}) = 720 - 0.6 \times \textcolor{var(--secondary-color)}{\text{Klassengröße}_i}, \]
Angenommen, die bedingte Erwartungsfunktion für Prüfungsergebnisse gegeben eine bestimmte Klassengröße ist
\[ \mathrm{E}(\textcolor{var(--primary-color)}{\text{Prüfungsergebnisse}_i}\mid\textcolor{var(--secondary-color)}{\text{Klassengröße}_i}) = 720 - 0.6 \times \textcolor{var(--secondary-color)}{\text{Klassengröße}_i}, \]
was können wir dann über die Prüfungsergebnisse in einem neuen Bezirk mit einer Klassengröße von 20 sagen?
In blau sehen wir unsere bedingte Erwartungsfunktion. Für eine Klassengröße von 18 erwarten wir einen bestimmten Wert. Die tatsächlichen Werte sind um diesen Wert herum verteilt. Das trifft auf jeden Punkt entlang der Funktion zu.
Wir können unsere Überlegungen zur bedingen Erwartungsfunktion und zum Vorhersagefehler zusammenführen und erhalten ein lineares Regressionsmodell:
\[ \textcolor{var(--primary-color)}{y_i} = \beta_0 + \beta_1 \textcolor{var(--secondary-color)}{x_i} + \textcolor{var(--tertiary-color-semidark)}{u_i}, \]
wobei
\[ \textcolor{var(--primary-color)}{y_i} = \beta_0 + \beta_1 \textcolor{var(--secondary-color)}{x_i} + \textcolor{var(--tertiary-color-semidark)}{u_i}, \]
In unserem Beispiel von vorher:
\[ \textcolor{var(--primary-color)}{\text{Prüfungsergebnisse}_i} = \beta_0 - \beta_1 \times \textcolor{var(--secondary-color)}{\text{Klassengröße}_i}+ \textcolor{var(--tertiary-color-semidark)}{u_i}. \]
In diesem Fall ist:
\[ \beta_1 = \frac{\mathrm{d}\:\mathrm{E}(\textcolor{var(--primary-color)}{\text{Prüfungserg.}_i}\mid\textcolor{var(--secondary-color)}{\text{Klassengr.}_i})}{\mathrm{d}\:\textcolor{var(--secondary-color)}{\text{Klassengröße}_i}} \]
der erwartete Unterschied in den Prüfungsergebnissen, wenn wir die durchschnittliche Klassengröße um eine Einheit variieren.
\[ \beta_0 = \mathrm{E}(\textcolor{var(--primary-color)}{\text{Prüfungserg.}_i}\mid\textcolor{var(--secondary-color)}{\text{Klassengr.}_i}=0) \]
der erwartete Wert für das Prüfungsergebnis, wenn in einem Bezirk durchschnittlich 0 Schüler:innen in einer Klasse sind.
\[ \beta_1 = \frac{\mathrm{d}\:\mathrm{E}(\textcolor{var(--primary-color)}{\text{Prüfungserg.}_i}\mid\textcolor{var(--secondary-color)}{\text{Klassengr.}_i})}{\mathrm{d}\:\textcolor{var(--secondary-color)}{\text{Klassengröße}_i}} \]
\[ \beta_0 = \mathrm{E}(\textcolor{var(--primary-color)}{\text{Prüfungserg.}_i}\mid\textcolor{var(--secondary-color)}{\text{Klassengr.}_i}=0) \]
Wie ändern sich diese beiden Parameter, wenn wir die Skalierung der Variablen ändern? Messen wir beispielsweise die Klassengröße in Zehnern:
\[ \textcolor{var(--primary-color)}{\text{Prüfungsergebnisse}_i} = \beta_0^{\bullet} - \beta_1^\bullet \times \frac{\textcolor{var(--secondary-color)}{\text{Klassengröße}_i}}{10}+ \textcolor{var(--tertiary-color-semidark)}{u_i}. \]
Wir sehen:
\(\beta_0^{\bullet} = \beta_0\qquad\) und \(\qquad\beta_1^{\bullet} = \textcolor{var(--secondary-color)}{10\times}\beta_1\).
Die Regressionskonstante verändert sich nicht, der Steigungsparameter aber wird skaliert.
Übungsaufgabe
Was passiert, wenn wir die abhängige Variable (statt der unabhängigen Variable) skalieren?
Auf dieser Folie skalieren wir die \(x_i\)-Werte in mehreren Schritten von Faktor 1 bis 2. Wir sehen, dass die Konstante unverändert bleibt, die Steigung sich aber ändert.
Nichts, was wir bisher besprochen haben, hatte mit tatsächlichen Daten zu tun.
Wir haben vorher diskutiert, wie Schulklassengröße und Prüfungsergebnisse in der Grundgesamtheit miteinander verbunden sind. Wir können \(\beta_0\) und \(\beta_1\) aber in der Praxis nicht beobachten. Daher benötigen wir eine Stichprobe, um sie schätzen zu können.
Wir sammeln also Daten:
\(\left.\begin{array}{c}\{y_1, x_1\} \\\{y_2, x_2\} \\\{y_3, x_3\} \\\vdots \\\{y_n, x_n\}\end{array}\right\}\quad\{y_i, x_i\}_{i=1}^{N}\quad\) zufällig gezogen aus einer Grundgesamtheit \(\quad F_{y,x}(\cdot,\cdot)\),
für die wir \(\mathrm{E}(y\mid x)\) mithilfe einer linearen bedingten Erwartungsfunktion approximieren wollen.
Wie sieht eine Zufallsstichprobe in unserem Beispiel von vorher aus?
Wir bereiten zuerst den Datensatz wieder auf.
Wie sieht eine Zufallsstichprobe in unserem Beispiel von vorher aus?
Wir sehen hier fixe Zahlen. Allerdings sind diese Zahlen Realisierungen von Zufallsvariablen, und jedes Mal, wenn wir eine neue Zufallsstichprobe ziehen, werden wir andere Werte erhalten.
Ziehen wir zur Veranschaulichung eine Stichprobe aus einer Standard-Normalverteilung und berechnen den Mittelwert.
Wenn wir diese Berechnung mehrmals durchführen, bekommen wir immer einen Mittelwert, der in der Nähe von 0 liegt, aber wir bekommen jedes Mal einen anderen Wert. Je mehr Beobachtungen wir sammeln (z.B. n=10^6), desto näher werden die meisten dieser Werte an 0 liegen.
Wir wollen eine Regressionslinie mit Konstanter \(\tilde{\beta}_0\) und Steigung \(\tilde{\beta}_1\) anpassen:
\[ y_i = \textcolor{var(--quarternary-color)}{\tilde{\beta}_0} + \textcolor{var(--quarternary-color)}{\tilde{\beta}_1}x_i, \]
die die folgenden Vorhersagefehler minimiert:
\[ \textcolor{var(--quarternary-color)}{\hat{u}_i} = y_i - \textcolor{var(--quarternary-color)}{\tilde{\beta}_0} + \textcolor{var(--quarternary-color)}{\tilde{\beta}_1}x_i. \]
Wie finden wir unter allen \(\tilde{\beta}_0\) und \(\tilde{\beta}_1\) diejenigen Parameter \(\hat{\beta}_0\) und \(\hat{\beta}_1\), die den Vorhersagefehler minimieren?
Vorschlag: Wir nehmen die Summe aller Residuen.
Besserer Vorschlag: Wir nehmen die Summe aller Quadrate der Residuen. So bestrafen wir positive und negative Residuen gleichermaßen. Wir suchen also das Minimum von:
\[ S(\tilde{\beta}_0,\tilde{\beta}_1)=\sum_{i=1}^N \left(y_i-\tilde{\beta}_0-\tilde{\beta}_1x_i\right)^2. \]
Wir nennen den resultierenden Schätzer Kleinste-Quadrate-Schätzer (engl. least squares estimator) bzw. Gewöhnlicher Kleinste-Quadrate-Schätzer (engl. ordinary least squares, OLS).
\[ S(\tilde{\beta}_0,\tilde{\beta}_1)=\sum_{i=1}^N \left(y_i-\tilde{\beta}_0-\tilde{\beta}_1x_i\right)^2. \]
Wir beginnen damit, die Funktion nach \(\tilde{\beta}_0\) abzuleiten und die Ableitung gleich Null zu setzen:
\[ \frac{\partial S}{\partial \tilde{\beta}_0}=-2\sum_{i=1}^N\left(y_i-\tilde{\beta}_0-\tilde{\beta}_1x_i\right)=0, \]
Das gibt uns
\[ \colorbox{var(--primary-color-lightened)}{$\sum_{i=1}^N y_i=n\tilde{\beta}_0+\tilde{\beta}_1\sum_{i=1}^N x_i.$} \]
Als nächstes leiten wir nach \(\tilde{\beta}_1\) ab:
\[ \frac{\partial S}{\partial \tilde{\beta}_1}=-2\sum_{i=1}^N x_i\left(y_i-\tilde{\beta}_0-\tilde{\beta}_1x_i\right)=0, \]
Wir erhalten
\[ \colorbox{var(--secondary-color-lightened)}{$\sum_{i=1}^N x_i y_i=\tilde{\beta}_0\sum_{i=1}^N x_i+\tilde{\beta}_1\sum_{i=1}^N x_i^2.$} \]
Wir notieren ab jetzt \(\bar{x}=\frac{1}{n}\sum_{i=1}^N x_i\) und \(\bar{y}=\frac{1}{n}\sum_{i=1}^N y_i\). Dann erhalten wir aus der ersten Bedingung erster Ordnung:
\[ \tilde{\beta}_0=\bar{y}-\tilde{\beta}_1\bar{x}. \]
Wenn wir das in die zweite Bedingung erster Ordnung einsetzen, erhalten wir:
\[ \sum^N_{i=1}x_i\left(y_i-\bar{y}\right)=\tilde{\beta}_1\sum^N_{i=1}x_i\left(x_i-\bar{x}\right). \]
Weil \(\sum^N_{i=1}x_i\left(x_i-\bar{x}\right)=\sum^N_{i=1}\left(x_i-\bar{x}\right)^2\) und \(\sum^N_{i=1}x_i\left(y_i-\bar{y}\right)=\sum^N_{i=1}\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)\) (Siehe Appendix A-1 in Wooldridge):
\[ \colorbox{#e0e0e0}{$\hat{\beta}_1=\frac{\sum_{i=1}^N (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^N (x_i-\bar{x})^2},$} = \textcolor{#999999}{\frac{\widehat{\mathrm{Cov}}(x_i,y_i)}{\widehat{\mathrm{Var}}(x_i)}} \]
solange \(\sum_{i=1}^N (x_i-\bar{x})^2>0\).
Und von vorher:
\[ \colorbox{#e0e0e0}{$\hat{\beta}_0=\bar{y}-\hat{\beta}_1\bar{x}.$} \]
Diese Schätzer minimieren die Summe der Residuenquadrate.
Alternativ können wir die Schätzer über die Momentenmethode (engl. method of moments) herleiten. Wir können dabei die folgenden (vorher besprochenen) Annahmen als Momentenbedingungen (engl. moment conditions) verwenden:
Als ersten Schritt ersetzen wir die Momente der Grundgesamtheit durh die Stichprobenmomente:
\[ \frac{1}{n} \sum_{i=1}^{n} x_i (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i) = 0 \]
\[ \frac{1}{n} \sum_{i=1}^{n} y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i = 0 \]
\[ \frac{1}{n} \sum_{i=1}^{n} x_i (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i) = 0 \]
\[ \frac{1}{n} \sum_{i=1}^{n} y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i = 0 \]
Diese Ausdrücke sind äquivalent zu denen, die wir durch Ableiten der Verlustfunktion erhalten haben. Insofern können wir genau so fortsetzen wie vorher und erhalten:
\[ \colorbox{#e0e0e0}{$\hat{\beta}_1=\frac{\sum_{i=1}^N (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^N (x_i-\bar{x})^2}$}\qquad\qquad\colorbox{#e0e0e0}{$\hat{\beta}_0=\bar{y}-\hat{\beta}_1\bar{x}.$} \]
Wir haben denselben Schätzer durch zwei verschiedene Methoden erhalten.